(網(wǎng)經(jīng)社訊)7月22日,阿里巴巴通義千問今日宣布更新了旗艦版Qwen3模型,推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名為Qwen3-235B-A22B-Instruct-2507-FP8。

據(jù)網(wǎng)經(jīng)社云計(jì)算臺(tái)(CC.100EC.CN)了解,新的Qwen3模型,通用能力明顯提升,包括指令遵循、邏輯推理、文本理解、數(shù)學(xué)、科學(xué)、編程及工具使用等方面,在GQPA(知識(shí))、AIME25(數(shù)學(xué))、LiveCodeBench(編程)、Arena-Hard(人類偏好對(duì)齊)、BFCL(Agent能力)等眾多測(cè)評(píng)中表現(xiàn)出色,超過Kimi-K2、DeepSeek-V3等頂級(jí)開源模型以及Claude-Opus4-Non-thinking等領(lǐng)先閉源模型(詳見圖2)。
此外,本次更新的Qwen3模型,還增強(qiáng)了以下關(guān)鍵性能:
1.在多語(yǔ)言的長(zhǎng)尾知識(shí)覆蓋方面,模型取得顯著進(jìn)步。
2.在主觀及開放性任務(wù)中,模型顯著增強(qiáng)了對(duì)用戶偏好的契合能力,能夠提供更有用的回復(fù),生成更高質(zhì)量的文本。
3.長(zhǎng)文本提升到256K,上下文理解能力進(jìn)一步增強(qiáng)。
目前,Qwen3新模型已在魔搭社區(qū)和HuggingFace上開源更新。
在技術(shù)特性方面,Qwen3融合了快速響應(yīng)和深度思考兩種模式。面對(duì)簡(jiǎn)單問題時(shí),模型能夠快速給出答案;遇到復(fù)雜任務(wù)時(shí),則會(huì)啟動(dòng)多步驟推理機(jī)制。這種混合推理設(shè)計(jì)既保證了響應(yīng)效率,又確保了復(fù)雜問題的處理質(zhì)量。
模型在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)突出。在數(shù)學(xué)推理能力評(píng)測(cè)AIME25中獲得81.5分的成績(jī),在代碼能力測(cè)試LiveCodeBench中突破70分關(guān)口。與此同時(shí),在人類偏好對(duì)齊評(píng)估ArenaHard中,該模型以95.6分的成績(jī)超越了多個(gè)國(guó)際知名模型。


































